そのタスク LLM? Fine-tuning?論文
論文情報
タイトル:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
発行日:2023年4月
著者:JINGFENG YANG, HONGYE JIN et al
所属:Amazon
論文を読んで感じたこと
ボリューム多いが、体系的によくまとまってる!!
翻訳タスクにLLM使っていい?の根拠となる論文を4つも教えてくれてありがとう。
4-6で、学術的なタスクは、リアルワールドを反映していない。形式化されてないし、非構造データが入ってしまうし、ノイズが多いからかけ離れている。
というのに納得。そしてこれを解決するには
曖昧さに対処し、文脈を理解し、ノイズの多い入力を扱うことが必要で
つまり、ファインチューニングされたモデルではなく、LLMが最適
LLMはさまざまな執筆スタイル、言語、ドメインを包括する多様なデータセットでトレーニングされているため、これに対処するのに適している
さらに、LLMはオープンドメインの応答を生成する強い能力を示し、これらのシナリオに適しています。一方、ファインチューニングされたモデルはしばしば特定の明確に定義されたタスクに特化しており、新しいまたは予期せぬユーザーリクエストに適応するのに苦労することがある。
概要
この論文は、大規模言語モデル(LLM)を自然言語処理(NLP)の下流タスクで使用する実務家やエンドユーザー向けの包括的かつ実践的なガイドを提供しています。私たちは、モデル、データ、および下流タスクの観点からLLMの使用に関する議論と洞察を提供します。まず、現在のGPTスタイルおよびBERTスタイルのLLMについての紹介と簡単な要約を行います。次に、事前トレーニングデータ、トレーニングデータ、テストデータの影響について議論します。最も重要なこととして、知識集約的タスク、伝統的な自然言語理解タスク、自然言語生成タスク、新たな能力、および特定のタスクに対する考慮事項など、さまざまな自然言語処理タスクにおける大規模言語モデルの使用および非使用ケースについて詳細に議論します。実際のシナリオでのLLMの実用的なアプリケーションと制約を示すために、さまざまな使用例と非使用例を提示します。また、データの重要性と各NLPタスクに関連する特定の課題を理解しようとします。さらに、LLMに対する迷信的な偏見の影響を探求し、効率、コスト、遅延など、実践でのLLMの展開を理解するためのその他の重要な考慮事項について詳細に検討します。この包括的なガイドは、研究者や実務家にLLMの使用に関する貴重な洞察とベストプラクティスを提供し、幅広いNLPタスクでこれらのモデルの成功した実装を可能にすることを目指しています。 1 はじめに
近年、大規模言語モデルの急速な発展が自然言語処理の分野を革命化しています。これらの強力なモデルは、自然言語理解(NLU)から生成タスクまで、さまざまなNLPタスクに対処する大きな可能性を示しており、人工一般知能(AGI)への道を開いています。しかし、これらのモデルを効果的かつ効率的に活用するには、それらの能力と制限、およびNLPに関与するデータとタスクの実用的な理解が必要です。 実務家やエンドユーザーにガイドを提供するために、この作業は、下流NLPタスクでのLLMの使用に関する実践的な側面に焦点を当てています。このガイドは、特定のタスクにLLMを選択するかどうか、および最も適したLLMを選択する方法に関する実践的なアドバイスを提供することを目的としています。これには、モデルサイズ、計算要件、およびドメイン固有の事前トレーニングモデルの可用性などの要因を考慮することが含まれます。この作業は、実用的な観点からLLMを徹底的に理解し、実務家とエンドユーザーに自身のNLPタスクでLLMの力を効果的に活用するために必要な実践的な知識を提供します。
当社の作業は次のように構成されています。まず、GPTスタイルやBERTスタイルのアーキテクチャなど、最も重要なモデルについての簡単な紹介を行います。次に、事前トレーニングデータ、トレーニング/チューニングデータ、およびテストデータを含む、データの観点からモデルのパフォーマンスに影響を与える重要な要因について詳しく検討します。最後に最も重要なこととして、さまざまな具体的なNLPタスクに深く潜り込み、知識集約的タスク、伝統的なNLUタスク、生成タスクにLLMが適用可能であるかどうかについての洞察を提供し、これらのモデルが持っている新たな能力と困難な実世界のシナリオについて議論します。実践におけるLLMの成功した使用例と制限を強調するために、詳細な例を提供します。
大規模言語モデルの能力を分析するために、私たちはそれらを微調整モデルと比較します。現在、LLMと微調整モデルには普遍的に認識された定義はありません。実用的な有用性を考慮して、私たちの記事では、それらの定義を次のように提案しています。LLMは、特定のタスクのためのデータでチューニングせずに、大量のデータセットで事前トレーニングされた巨大な言語モデルです。微調整モデルは、通常、事前トレーニングされた後、そのタスクのパフォーマンスを最適化するために、より小さく、タスク固有のデータセットでさらにチューニングされた小規模の言語モデルです。
この作業は、LLMを使用するための以下の主な実践的なガイドを要約しています。
分布外のデータに直面したり、非常に少ないトレーニングデータを使用する際に、LLMの優れた一般化能力を活用します。
LLMの能力を利用して、さまざまなアプリケーション向けの一貫性があり、文脈に関連し、高品質なテキストを作成します。
知識集約的タスク
ドメイン固有の専門知識や一般的な世界知識を必要とするタスクにLLMに蓄積された広範な知識を活用します。
推論能力
さまざまなコンテキストでの意思決定と問題解決を改善するために、LLMの推論能力を理解し、活用します。
2 モデルに関する実践ガイド
このセクションでは、最先端の大規模言語モデル(LLM)について簡単に紹介します。これらのモデルは、トレーニング戦略、モデルアーキテクチャ、および使用例において異なります。LLMの全体像をより明確に理解するために、エンコーダ-デコーダまたはエンコーダのみの言語モデルと、デコーダのみの言語モデルの2つのタイプに分類します。Figure1では、言語モデルの詳細な進化プロセスを示しています。
進化ツリーから、以下の興味深い観察がなされます:
a) デコーダのみのモデルは、LLMの開発を徐々に支配してきました。LLMの初期段階では、デコーダのみのモデルは、エンコーダのみやエンコーダ-デコーダのモデルほど人気がありませんでした。しかし、2021年以降、画期的なLLMであるGPT-3の導入により、デコーダのみのモデルは顕著なブームを経験しました。一方、BERTによってもたらされた初期の爆発的な成長の後、エンコーダのみのモデルは徐々に衰退し始めました。 b) OpenAIは、現在も将来もLLMでのリーダーシップポジションを一貫して維持しています。他の企業や機関は、GPT-3や現在のGPT-4に匹敵するモデルを開発するためにOpenAIに追いつこうと努力しています。このリーダーシップポジションは、当初は広く認知されていなかったとしても、OpenAIがその技術路線に堅持してきたことに起因するかもしれません。 c) Metaは、オープンソースLLMの開発と研究を大いに促進しています。LLMに関連するオープンソースコミュニティへの貢献を考えると、MetaはそのLLMをすべてオープンソース化しているため、最も寛大な商業企業の一つとして際立っています。
d) LLMはクローズドソース化の傾向を示しています。LLMの開発初期段階(2020年以前)では、多くのモデルがオープンソースでした。しかし、GPT-3の導入以降、企業はPaLM、LaMDA、GPT-4などのモデルをクローズドソース化することを選択することが増えてきました。その結果、学術研究者がLLMのトレーニングに関する実験を行うことが難しくなりました。そのため、APIベースの研究が学術界で主流の方法となる可能性があります。
e) エンコーダ-デコーダモデルは引き続き有望であり、このタイプのアーキテクチャはまだ積極的に探求されており、そのほとんどがオープンソース化されています。Googleはオープンソースのエンコーダ-デコーダアーキテクチャへの大きな貢献をしています。しかし、デコーダのみのモデルの柔軟性と多用途性が、Googleのこの方向への固執をあまり有望ではなくさせているようです。
私たちはまた、各タイプの特徴と代表的なLLMを表1で簡潔にまとめています。
https://scrapbox.io/files/65a8e6fbf382bb00253d80cf.png
2.1 BERTスタイルの言語モデル:エンコーダ-デコーダまたはエンコーダのみ
自然言語データが容易に入手でき、非常に大規模なデータセットをより効果的に活用するための教師なしトレーニングパラダイムが提案されたことから、自然言語の教師なし学習が促進されています。一般的なアプローチの一つとして、文中の周囲のコンテキストを考慮しながら、マスクされた単語を予測する方法があります。このトレーニングパラダイムは、マスク言語モデルとして知られています。このタイプのトレーニングにより、モデルは単語間の関係やそれらが使用されるコンテキストについてのより深い理解を開発することができます。これらのモデルは、Transformerアーキテクチャなどの技術を使用して、大規模なテキストコーパスでトレーニングされ、感情分析や固有表現認識などの多くのNLPタスクで最先端の結果を達成しています。マスク言語モデルの顕著な例には、BERT、RoBERTa、T5などがあります。MLMは、幅広いタスクでの成功により、自然言語処理の分野で重要なツールとなっています。 2.2 GPTスタイルの言語モデル:デコーダのみ
言語モデルは通常、アーキテクチャにおいてタスク非依存ですが、これらの方法は特定の下流タスクのデータセットでのファインチューニングを必要とします。研究者たちは、言語モデルのスケールアップが、Few-ShotやZero-Shotパフォーマンスを著しく改善することを発見しました 。フューショットやゼロショットパフォーマンスにおいて優れたモデルは、先行する単語を与えられたシーケンスの次の単語を生成することによってトレーニングされる自動回帰言語モデルです。これらのモデルは、テキスト生成や質問応答などの下流タスクで広く使用されています。自動回帰言語モデルの例には、GPT-3、OPT、PaLM、BLOOMなどがあります。ゲームチェンジャーであるGPT-3は、プロンプティングとICL(コンテキスト内学習: In Context Learning)を通じて、初めて合理的なフューショット/ゼロショットパフォーマンスを実証し、自動回帰言語モデルの優位性を示しました。コード生成などの特定のタスクに最適化されたモデルとして、CodeXや金融ドメイン用のBloombergGPTなどもあります。最近のブレークスルーは、会話タスクに特化してGPT-3を洗練させたChatGPTで、よりインタラクティブで、一貫性があり、コンテキストに敏感な会話を様々な実世界のアプリケーションに提供しています。 3 データに関する実践ガイド
このセクションでは、下流タスクに適したモデルを選択する際に、データが果たす重要な役割について議論します。モデルの効果に及ぼすデータの影響は、事前トレーニングの段階で始まり、トレーニングおよび推論の段階を通じて続きます。
注記 1
(1) LLMは、敵対的な例やドメインシフトなどの分布外(OOD)データを対象とする下流タスクで、ファインチューンされたモデルよりも優れた一般化能力を持っています。 (2) 注釈付きデータが限られている場合、LLMはファインチューンされたモデルよりも好ましいですが、豊富な注釈付きデータが利用可能な場合、特定のタスク要件に応じて、どちらも合理的な選択肢となり得ます。
(3) ダウンストリームタスクに似たデータフィールドで事前トレーニングされたモデルを選択することが望ましいです。
3.1 事前トレーニングデータ
事前トレーニングデータは、大規模言語モデルの開発において極めて重要な役割を果たします。LLMの顕著な能力の基盤として、事前トレーニングデータの品質、量、および多様性は、LLMのパフォーマンスに大きな影響を与えます。一般的に使用される事前トレーニングデータは、書籍、記事、ウェブサイトなどの多様なテキストソースで構成されています。このデータは、人間の知識、言語のニュアンス、および文化的視点を包括的に表現するために慎重にキュレートされています。事前トレーニングデータの重要性は、単語知識、文法、構文、意味論に関する豊かな理解を言語モデルに提供する能力に加え、文脈を認識し、一貫した応答を生成する能力にあります。事前トレーニングデータの多様性も、モデルのパフォーマンスを形作る上で重要な役割を果たし、LLMの選択は事前トレーニングデータの構成要素に大きく依存します。たとえば、多言語事前トレーニングデータが豊富なPaLMとBLOOMは、多言語タスクや機械翻訳で優れています。また、PaLMは、ソーシャルメディアの会話やブックスコーパスの大量のデータを統合することで、質問応答タスクのパフォーマンスが向上しています 。
同様に、GPT-3.5(code-davinci-002)のコード実行およびコード補完機能は、事前トレーニングデータセットにコードデータを統合することで強化されています。要約すると、下流タスクのためのLLMを選択する際には、同様のデータフィールドで事前トレーニングされたモデルを選択することが望ましいです。 3.2 ファインチューニングデータ
下流タスクのためにモデルを展開する際、注釈付きデータの可用性に基づいて3つの主要なシナリオを考慮することが重要です:ゼロ、フュー、豊富。このセクションでは、各シナリオに適したモデルの使用について簡潔に概説します。
ゼロ注釈データ:注釈付きデータが利用できないシナリオでは、ゼロショット設定でLLMを使用することが最も適切なアプローチです。LLMは以前のゼロショット方法よりも優れたパフォーマンスを示しています。さらに、パラメータ更新プロセスがないため、言語モデルパラメータが変更されないため、破壊的忘却を避けることができます。
2017年の論文で、ニューラルネットワークでは、新しいタスクを順次学習すると、以前学習したタスクの性能が急激に低下する「破滅的忘却」が発生すると報告された。
フュー注釈データ:この場合、Few-Shot例はLLMの入力プロンプトに直接組み込まれ、これはICL(コンテキスト内学習: In Context Learning)と呼ばれます。これらの例は、LLMがタスクに一般化するために効果的にガイドすることができます。GPT-3論文に報告されているように、ワンショットおよびフューショットのパフォーマンスは大幅に向上し、SOTAのファインチューニングされたオープンドメインモデルのパフォーマンスに匹敵します。また、LLMのゼロ/フューショット能力は、スケーリングによってさらに向上することができます。また、メタラーニングや転移学習など、ファインチューンされたモデルを強化するためのいくつかのフューショット学習方法が発明されています。しかし、パフォーマンスは、ファインチューンされたモデルのより小規模で過剰適合する可能性があるため、LLMを使用する場合と比較して劣るかもしれません。 豊富な注釈データ:特定のタスクのために大量の注釈付きデータが利用可能な場合、ファインチューンされたモデルとLLMの両方を検討することができます。ほとんどの場合、モデルのファインチューニングはデータにうまく適合できます。ただし、プライバシーなどの制約を満たすためにLLMを使用することもあります。このシナリオでは、ファインチューンされたモデルを使用するかLLMを使用するかは、タスク固有のものであり、希望するパフォーマンス、計算リソース、展開の制約などの多くの要因に依存します。
簡単に要約すると、LLMはデータの可用性に関してより多用途であり、豊富な注釈付きデータがある場合にはファインチューンされたモデルを検討することができます。
3.3 テストデータ/ユーザーデータ
下流タスクにLLMを展開する際、トレーニングデータとテスト/ユーザーデータの間の分布的違いに起因する課題に直面することがよくあります。これらの差異には、ドメインシフト、分布外の変動、さらには敵対的な例などが含まれる場合があります。このような課題は、ファインチューンされたモードの実世界でのアプリケーションにおける効果を大きく妨げます。それらは特定の分布に適合し、OODデータに一般化する能力が乏しいです。しかし、LLMはこのようなシナリオに直面してもかなりうまく機能します。なぜなら、それらは明示的なフィッティングプロセスを持っていないからです。さらに、最近の進歩はこの点で言語モデルの能力をさらに向上させています。特に、Human Feedback(RLHF)からのReinforcement Learningメソッドは、LLMの一般化能力を顕著に向上させています。たとえば、InstructGPTは、さまざまなタスクでさまざまな指示に従う能力を示し、そのような指示が稀な場合でも、異なる言語での指示に従うことがあります。同様に、ChatGPTは、ほとんどの敵対的および分布外(OOD)の分類および翻訳タスクで一貫した利点を示しています。対話関連テキストの理解におけるその優位性は、OOD評価用に設計された医療診断データセットであるDDXPlusデータセットでの印象的なパフォーマンスにつながりました。 4 NLPタスクに関する実践ガイド
このセクションでは、さまざまな下流NLPタスクでのLLMの使用例および非使用例と、対応するモデルの能力について詳細に議論します。そして、Figure 2では、すべての議論を意思決定フローにまとめています。これは、タスクに直面した際の迅速な意思決定のためのガイドとなることができます。
https://scrapbox.io/files/65a9bce7a2741d002335e0de.png
4.1 伝統的なNLUタスク
伝統的なNLUタスクは、テキスト分類、固有表現認識(NER)、含意予測など、NLPの基本的なタスクのいくつかです。それらの多くは、知識グラフの構築など、より大きなAIシステムの中間ステップとして設計されています。
注記 2
伝統的なNLUタスクでは、一般的にファインチューンされたモデルがLLMよりも優れた選択肢ですが、強力な一般化能力が求められる場合、LLMは助けになることがあります。 4.1.1 非使用例
GLUEやSuperGLUEのタスクなど、ほとんどの自然言語理解タスクでは、豊富なよく注釈付けされたデータがあり、テストセットで分布外の例が非常に少ない場合、ファインチューンされたモデルの方がパフォーマンスが良いです。異なるタスクやデータセットによって、小さなファインチューンされたモデルとLLMの間のギャップは異なります。 テキスト分類では、ほとんどのデータセットで、LLMはファインチューンされたモデルよりもわずかに劣るパフォーマンスを示します。感情分析では、IMDBやSSTなど、ファインチューンされたモデルとLLMは同等のパフォーマンスを示します。一方、毒性検出などの別の記号的なテキスト分類タスクでは、ギャップははるかに大きいです。すべてのLLMはこのタスクでうまく機能せず、CivilCommentsでは、最も優れたものでもランダムな推測よりもわずかに良いだけです。一方、ほとんどの人気のあるファインチューンされたモデルははるかに良いパフォーマンスを得ることができます。Perspective APIは、毒性の検出において依然として最高のものの一つです。このAPIは、公開されている毒性データにチューニングされた多言語BERTベースのモデルによって駆動されており、このモデルから抽出されたいくつかの小規模な単一言語CNNが含まれています。これは、毒性が言語表現の微妙なニュアンスによって定義され、大規模言語モデルが提供された入力に基づいてこのタスクを正確に理解することができないためかもしれません。 自然言語推論(NLI)タスクでは、ほとんどのデータセットでは、例えばRTEやSNLIなどでは、ファインチューンされたモデルがLLMよりも優れたパフォーマンスを示しますが、CBなどの一部のデータでは、LLMはファインチューンされたモデルと同等のパフォーマンスを達成しています。質問応答(QA)では、SQuADv2、QuAC、その他多くのデータセットでは、ファインチューンされたモデルが優れたパフォーマンスを示しますが、CoQAでは、LLMはファインチューンされたモデルと同じようにパフォーマンスを発揮します。
情報検索(IR)タスクでは、LLMはまだ広く活用されていません。主な理由の一つは、IRタスクが他のタスクと根本的に異なるためです。何千もの候補テキストをLLMが必要とする数ショット/ゼロショット形式に変換する自然な方法がありません。MS MARCO(通常/TREC)の既存の評価結果は、ファインチューンされたモデルに基づく方法がより良いパフォーマンスを持つことを示しています。この評価では、LLMは非伝統的な方法でパッセージをランク付けし、LLMにパッセージごとに確率を生成させる必要があります。
NERや依存構造解析など、通常のユーザーを対象としない低レベルの中間タスクでは、LLMからの結果は十分ではありません。これは、現在のLLMの評価が実用的なタスクに焦点を当てているためです。利用可能な評価結果によると、NERタスクでは、CoNLL03は依然としてLLMにとって挑戦であり、ファインチューンされたモデルのパフォーマンスはLLMの約2倍です。これらの中間タスクは、LLMがそれらの中間タスクの助けなしに高レベルのタスクを引き受けることができるため、間もなく消える可能性があります(例:コーディングタスク用の依存構造解析、テキスト生成タスク用のNER)。
要するに、ほとんどの伝統的なNLUタスクでは、ベンチマークデータセットのパフォーマンスと計算コストの点で、ファインチューンされたモデルはより良い選択です。LLMの規模は通常、ファインチューンされたモデルの10倍、または100倍以上です。LLMが特定のタスクで劣るパフォーマンスを示す可能な原因の一つは、指示/プロンプトの設計です。IRや文ラベリングなどのタスクから数ショット/ゼロショット指示形式への入力変換は簡単ではありません。将来的には、伝統的なNLPタスクに言語モデルを適応させるより良い方法が見つかるかもしれません。一方、ファインチューンされたモデルの能力の上限はまだ達成されておらず、FLANチューニングなどの方法でNLUタスクのパフォーマンスをさらに向上させることができます。もう一つの興味深い発見は、NLUタスクでは、ファインチューニング後、マスクされた言語モデル(例:T5)が同じ規模の自動回帰言語モデルよりも優れていることですが、最近の結果によると、このギャップはスケーリングによって埋められる可能性があります。
4.1.2 使用例
しかし、LLMに適したNLUタスクもあります。
代表的なタスクの一つは、雑多なテキスト分類です。感情分析などの従来のドメイン固有のテキスト分類タスクとは対照的に、雑多なテキスト分類は、互いに明確または強い関連性がない可能性がある幅広いトピックやカテゴリに対処します。これは現実世界のケースに近く、ファインチューンされたモデルを使用するための形式化が困難です。もう一つは敵対的NLI(ANLI)です。これは、3ラウンド(R1、R2、R3)で敵対的に採掘された自然言語推論の質問から構成される難しいデータセットです。LLMは、特にR3およびR2でANLIにおいて優れたパフォーマンスを示しました。これらの例は、LLMが伝統的なNLPタスクで分布外および疎に注釈付けされたデータに対して一般化する優れた能力を持つことを示しており、ファインチューンされたモデルを上回っています。これについては、上記3.3セクションで議論しました。
4.2 生成タスク
自然言語生成は、意味のある、文脈に適したシンボルの連続を作成することを目的とした、2つの主要なカテゴリのタスクを広く包含しています。
最初のタイプは、入力テキストを新しいシンボルシーケンスに変換することに焦点を当てており、段落の要約や機械翻訳などのタスクがこれに該当します。
第二のタイプは「オープンエンド」生成であり、電子メールの作成、ニュース記事の作成、フィクションストーリーの作成、コードの作成など、入力説明に正確に一致するテキストやシンボルをゼロから生成することを目的としています。
注記 3
強力な生成能力と創造性により、LLMはほとんどの生成タスクで優位性を示します。
4.2.1 使用例
生成タスクでは、モデルが入力内容や要件に関する包括的な理解とある程度の創造性を持つことが求められます。これはLLMが得意とする分野です。
要約タスクでは、ROUGEなどの従来の自動評価指標ではLLMがファインチューンされたモデルに明確な利点を持たないものの、人間による評価結果は、ファインチューンされたモデルよりもLLMによって生成された結果を好む傾向にあります。たとえば、CNN/DailyMailやXSUMでは、BrioやPegasusなどのファインチューンされたモデルは、ROUGEに関してLLMよりもはるかに良いパフォーマンスを示しますが、OPTなどのLLMは、信頼性、一貫性、関連性などを含むすべての側面で人間による評価ではるかに優れています。これは、要約タスクにおけるLLMの優位性を示しています。一方、現在の要約ベンチマークには質の高い要約が含まれていないか、自動的な評価基準が要約の評価に適していないことを意味している。 機械翻訳(MT)では、LLMは適切な翻訳を行うことができますが、BLEUScoreなどの一部の自動評価指標を考慮すると、いくつかの商用翻訳ツールよりも平均的なパフォーマンスはわずかに劣ります。LLMは、特に低リソース言語テキストを英語テキストに翻訳する際に優れており、例えばWMT'16のルーマニア語-英語翻訳では、ゼロショットまたはフューショットLLMはSOTAのファインチューンされたモデルよりも優れたパフォーマンスを発揮することができます。これは主に、英語のリソースが事前トレーニングデータの主要な部分を構成しているためです。BLOOMは、より多くの多言語データで事前トレーニングされており、豊富なリソースと低リソースの翻訳の両方で翻訳品質が向上しています。また、BLOOMは、事前トレーニングデータに含まれていないガリシア語などのロマンス諸語間の翻訳でも良い品質を達成しています。これは、同じ言語グループの一部の言語からのテキストがLLMが類似性から学ぶのに役立つためと考えられます。さらに多言語テキストを事前トレーニングデータに追加すると、翻訳能力がさらに向上する可能性があります。 さらに、LLMはオープンエンド生成にも高い技能を持っています。例えば、LLMによって生成されたニュース記事は、人間によって本物のニュース記事と区別がつかないほどです。LLMはコード合成にも非常に優れています。HumanEvalやMBPPなどのテキスト-コード生成、あるいはDeepFixなどのコード修正においても、LLMはかなりうまく機能します。GPT-4はLeetcodeの問題の25%に合格することさえできますが、これはほとんどの人間のコーダーにとっては容易ではありません。より多くのコードデータでトレーニングすると、LLMのコーディング能力はさらに向上します。このようなタスクでうまく機能しているにもかかわらず、LLMによって生成されたコードは、コード合成にLLMを適用する際の主な課題である微妙なバグを発見するために慎重にテストする必要があります。 4.2.2 非使用例
DeltaLM+Zcodeなどのファインチューンされたモデルは、ほとんどのリッチリソース翻訳タスクや極端に低リソースの翻訳タスクにおいて最高のパフォーマンスを発揮します。リッチリソースの機械翻訳では、ファインチューンされたモデルがLLMをわずかに上回ります。そして、極端に低リソースの機械翻訳、例えば英語-カザフ語翻訳では、ファインチューンされたモデルがLLMよりも大幅に優れたパフォーマンスを発揮します。
4.3 知識集約的タスク
知識集約的NLPタスクは、背景知識、ドメイン固有の専門知識、または一般的な実世界の知識に強く依存するタスクのカテゴリを指します。これらのタスクは単純なパターン認識や構文分析を超え、特定の実体、出来事、および私たちの実世界の常識に関する知識の記憶と適切な活用に大きく依存しています。
注記 4
(1) LLMは、膨大な実世界の知識を持っているため、知識集約的タスクに優れています。
(2) LLMは、学習した知識と一致しない知識が必要な場合や、文脈知識のみが必要なタスクに直面した場合には苦戦することがあります。その場合、ファインチューンされたモデルはLLMと同じくらい効果的に機能することがあります。
4.3.1 使用例
何十億ものトレーニングトークンとパラメータを持つLLMは、ファインチューンされたモデルよりもはるかに多くの実世界の知識を持っています。
クローズドブック質問応答タスクは、モデルが事実上の知識に関する質問に外部情報なしで答えることを要求します。これは、モデルが実世界の知識を記憶することを必要とします。LLMはNaturalQuestions、WebQuestions、TriviaQAなど、ほぼすべてのデータセットでより優れたパフォーマンスを発揮します。TriviaQAでは、ゼロショットLLMでもはるかに優れています。 大規模マルチタスク言語理解(MMLU)も非常に知識集約的です。これには、57の異なる科目にまたがる多肢選択式の質問が含まれており、モデルの一般知識が求められます。これはLLMにとってもかなり難しい課題ですが、新しくリリースされたGPT-4は英語で顕著なマージンで既存のモデルを上回り、86.5%の満足な正確さを達成しています。 また、LLMを試験し、その将来の能力を推測するために設計されたBig-benchのいくつかのタスクは、実世界の知識の記憶に大きく依存しています。これらのタスクでは、いくつかのLLMのパフォーマンスは人間の平均レベルよりも優れており、最高の人間のパフォーマンスと比較しても同等です。例えば、Hindu_knowledgeタスクはモデルにヒンドゥー神話に関する事実を与えるよう求め、Periodic Elementsタスクは周期表から元素名を予測する能力を要求し、Physicsタスクは与えられた物理問題を解決するために必要な公式を尋ねることでモデルの物理知識をテストします。 4.3.2 非使用例
LLMが学んだ実世界の知識とは異なる知識が必要な他のタスクもあります。そのようなタスクでは、LLMは顕著な優位性を示しません。
入力のコンテキストから得られる自己完結型の知識だけでモデルが予測を行うタスクもあります。これらのタスクでは、小規模のファインチューンされたモデルがうまく機能することができます。そのようなタスクの一つが機械読解(MRC)です。MRCタスクでは、いくつかの段落が提供され、モデルはこれらの段落に基づいて質問への回答を予測する必要があります。これはまた伝統的なNLUタスクでもあるため、前のセクションで議論しました。
また、実世界に関するLLMの知識がタスクにとって無用である場合、あるいは必要な知識が実世界と反する場合もあります。その結果、LLMはそのようなタスクでうまく機能しません。場合によっては、矛盾する知識により、LLMはランダムな推測よりも悪いパフォーマンスを示すことさえあります。例えば、Big-BenchのMnist asciiタスクでは、モデルがASCIIアートで表された数字を識別することが求められますが、このタスクに必要な能力は実世界の知識とは関係ありません。また、Inverse Scaling Phenomenon competitionの再定義数学タスクでは、一般的なシンボルを再定義し、モデルに元の意味と再定義から導かれる意味の選択を要求します。これはLLMの知識と矛盾しており、その結果LLMはランダムな推測よりも悪いパフォーマンスを示します。
LLMの実世界の知識に代わるものとして、追加の知識へのアクセスが許可され、モデルは検索拡張を通じてタスクに十分な知識を得ることができます。検索拡張の基本的な考え方は、予測を行う前に追加の情報検索ステップを追加することで、タスクに関連する有用なテキストを大規模なコーパスから取得します。その後、モデルは入力コンテキストと取得されたテキストの両方に基づいて予測を行います。取得された追加情報を使用することで、クローズドブックのタスクは「オープンブック」になります。このシナリオでは、必要な知識を検索によって得ることができるため、はるかに小さなサイズでファインチューンされたモデルがかなり優れています。例えば、NaturalQuestionsでは、追加のコーパスを使用すると、検索拡張モデルは他のどの方法よりもはるかに優れています。 4.4 スケーリングに関する能力
大規模言語モデル(LLM)のスケーリング(例えば、パラメータ、トレーニング計算など)は、事前学習された言語モデルを大いに強化することができます。モデルがスケールアップするにつれて、一連のタスクにおいてより能力が向上します。一部の指標に反映されるように、パフォーマンスはモデルスケールとの間にパワーロー関係を示します。例えば、言語モデリングのパフォーマンスを測るために使用されるクロスエントロピー損失は、モデルスケールの指数的増加に伴って線形に減少し、これは「スケーリング則」とも呼ばれます。推論などの重要な能力については、モデルのスケーリングによってこれらの能力が非常に低い状態から実用的な状態へと変化し、さらには人間の能力に近づくこともあります。このセクションでは、スケーリングに伴うLLMの能力と振る舞いについての概要を提供します。 注記 5
(1) モデルスケールが指数関数的に増加すると、LLMは算術的推論や常識的推論など、推論に特に優れるようになります。
(2) スケールアップするにつれて現れる新たな能力は、言葉の操作能力や論理的能力など、LLMが持つ意外な使い道となります。
(3) 多くの場合、スケールアップに伴うパフォーマンスの改善は一貫していないため、大規模言語モデルの能力がスケールアップによってどのように変化するかについての理解が限られています。
4.4.1 推論に関する使用例
情報を理解し、推論を行い、意思決定をすることを含む推論は、人間の知能の重要な側面の一つです。これはNLPにとって挑戦的です。多くの既存の推論タスクは、常識的推論と算術的推論に分類されます。
算術的推論/問題解決
LLMの算術的推論能力は、モデルサイズのスケーリングによって大きく恩恵を受けます。GPT-3においては、2桁の加算能力は、パラメータ数が130億を超えたときにのみ明らかになります。算術的推論をテストするタスクは人間にとって簡単であり、自然言語を数学的記号に変換し、複数ステップの推論を行う能力を挑戦するために設計されています。GSM8K、SVAMP、AQuAなどのタスクでは、LLMは、特定のタスクに特化した設計を持つほとんどの方法と競合するパフォーマンスを持っています。また、GPT-4は算術問題に特化してチューニングされた他の大規模モデルを上回ります。ただし、外部ツールの介入がない場合、LLMは基本的な計算を行う際に間違いを犯すことがあり、CoT (Chain-of-Thought)が計算能力を大幅に向上させることができます。 常識的推論
常識的推論は、LLMが事実上の知識を記憶するだけでなく、事実に関する複数の推論ステップを行うことを要求します。常識的推論は、モデルサイズの成長とともに徐々に増加します。ファインチューンされたモデルと比較して、LLMはほとんどのデータセットで優位性を保ちます。特にARC-Cでは、3年生から9年生までの科学試験から難しい質問を含むもので、GPT-4は100%(96.3%)に近いパフォーマンスを達成しています。 4.4.2 新たな能力に関する使用例
モデルのスケーリングはまた、べき乗則を超える前例のない、素晴らしい能力をモデルに与えます。これらの能力は「新たな能力」と呼ばれます。LLMの新たな能力とは、小規模モデルには存在しないが、大規模モデルには存在する能力です。つまり、小規模モデルのパフォーマンス向上を外挿することでこれらの能力を予測することはできず、モデルがある範囲を超えると突然、いくつかのタスクで良いパフォーマンスを得ることができます。新たな能力は一般的に予測不可能で驚くべきものであり、ランダムまたは予期せずに現れるタスクにつながります。LLMの新たな能力の具体的な例を検討し、LLMの新たな能力を活用するかどうかを決定するための重要な参考資料として提供します。
言葉の操作を扱うことは典型的な新たな能力です。これは、反転した単語など、シンボルの操作を学習する能力を指します。例えば、モデルは逆に綴られた単語が与えられ、元の単語を出力する必要があります。GPT-3は単語のソートや単語の解読タスクで新たな能力を示しており、PaLMはASCII単語認識およびhyperbaton5タスクで新たな能力を示しています。モデルの論理的能力は、スケールアップするにつれて現れる傾向があり、論理的推論、論理的シーケンス、論理グリッドパズルなどが含まれます。さらに、高度なコーディング(例:自動デバッグ、コード行の説明)や概念理解(例:新しい概念、単純なチューリング概念)などのタスクも、大規模言語モデルの新たな能力として登場しています。 4.4.3 使用しないケースと理解
上述のように、大規模モデルはほとんどの場合、性能が向上するものの、適切なモデルを選択する際には考慮すべき多くの例外があります。
特定のタスクでは、LLMのサイズが大きくなるにつれて、性能が低下することがあります。例えば、Redefine-math: 一般的な記号を再定義して、言語モデルがそれを処理できるかをテストするもの、Intothe-unknown: モデルがどの情報が質問に答えるのに役立つかを選択することを要求するもの、Memo-trap: 有名な引用文のように始まるが異なる終わり方をするフレーズをLMに書かせるものです。これはInverse Scaling Phenomenon(逆スケーリング現象)とも呼ばれます。LLMのスケーリングにおいて観察されるもう一つの興味深い現象は、U-shaped Phenomenon(U字型現象)と呼ばれます。名前が示すように、この現象はLLMのサイズが増加するにつれて、特定のタスクの性能が初めは向上し、その後低下し、最終的に再び向上することを指します。例えば、Hindsight-neglect: 言語モデルが賭けが期待値に基づいて価値があるかを評価できるかどうかをテストするもの、NegationQA: 既存の複数選択肢データセットを取り、質問の一部を否定することで、言語モデルが否定に敏感かどうかを確認するもの、Quote-repetition: プロンプトで与えられた文章を繰り返すようモデルに求めるものです。したがって、性能が低下するリスクに注意し、もしタスクが先に述べたものに似ている場合は、巨大なLLMを使用するかどうか慎重に検討する必要があります。
LLMにおける新たな能力、逆スケーリング現象、U字型現象を深く理解することは、この分野の研究を進める上で不可欠です。ある意味で、U字型現象は、小規模モデルと巨大規模モデルが異なる内部メカニズムで予測を行うことを示唆しています。この観点から、U字型現象は、十分に大きなモデルからの新たな能力によって逆スケーリング現象が変化したものと見ることができます。GPT-4は、例えばHindsight Neglectというタスクにおいて、逆スケーリング現象の逆転を示しています。LLMがスケーリング中にこれらの振る舞いを示す理由はまだ解決されていない問題です。新たな能力に関しては、タスクに複数の重要なステップがあり、LLMが十分に大きくなるまでこのタスクを処理できないという説明が一つあり、もう一つの説明は評価指標の粒度に焦点を当てています。逆スケーリング現象とU字型現象に関しては、主にモデルが入力プロンプトよりも過去の情報に過度に依存すること、妥当だが誤解を招くフューショット例、難しいタスク内の気を散らす簡単なタスクに焦点を当てています。 4.5 その他のタスク
このセクションでは、以前の議論に含まれないその他のタスクを探求し、LLMの強みと弱みをよりよく理解するためにあります。
注記6
(1) ファインチューニングされたモデルや特定のモデルは、LLMの事前トレーニングの目的やデータから遠いタスクにおいて依然としてその場を持っています。
(2) LLMは人間の真似をすること、データの注釈付けや生成に優れています。また、NLPタスクでの品質評価にも使用でき、解釈可能性というボーナスがあります。
4.5.1 使用しないケース
LLMは目的やトレーニングデータの違いから、一部のタスクで苦戦することが一般的です。LLMは様々な自然言語処理タスクで顕著な成功を収めているものの、回帰タスクの性能はそれほど印象的ではありません。例えば、ChatGPTのGLUE STS-Bデータセットでの性能は、文の類似性を評価する回帰タスクであり、ファインチューニングされたRoBERTaの性能に劣ります。回帰タスクは通常、離散的なラベルではなく連続値を予測することを含み、LLMにとって独特の課題を提起します。その劣る性能の一つの主な理由は、言語モデリングの目的と回帰タスクの目的との間の根本的な違いです。LLMは、シーケンス中の次の単語を予測したり、整合性のあるテキストを生成したりするように設計されており、その事前トレーニングは言語パターンや関係を捉えることに焦点を当てています。その結果、連続的な数値出力をモデル化するための内部表現はあまり適していないかもしれません。また、LLMは主にテキストデータにトレーニングされており、自然言語処理の複雑さを捉えることに焦点を当てています。その結果、テキスト、画像、オーディオ、ビデオ、アクション、ロボティクスなど、複数のデータタイプを扱うマルチモーダルデータの性能は、ほとんど探求されていません。また、BEiTやPaLIなどのファインチューニングされたマルチモーダルモデルは、視覚的質問応答(VQA)や画像キャプショニングなどの多くのタスクで依然として支配的です。それにもかかわらず、最近導入されたGPT-4はマルチモーダル融合の一歩を踏み出していますが、その能力の詳細な評価はまだ不足しています。 4.5.2 使用例
LLMは特定のタスクに特に適しています。
LLMは人間を模倣し、チャットボットとして機能し、さまざまなタスクを実行するのに非常に優れています。LLMが搭載されたChatGPTは、人間との複数の発話において、その一貫性、信頼性、情報性、堅牢性に驚くべきものがあります。人間のフィードバック手順は、そのような能力を獲得する上で重要な役割を果たしています。
LLMは、データ拡張のための良いアノテーターやデータジェネレーターとしても機能し得ます。一部のタスクでは、LLMは人間のアノテーターと同じくらい優れているとされています。また、GPT-3.5(text-davinci-003)から収集されたテキストは、他の言語モデルをトレーニングするための人間らしい指示に従うデモンストレーションとして使用されています。 また、上記の議論から、LLMの能力は性能向上に加えて、解釈可能性といったボーナスをもたらします。LLMのCoT推論能力は、LLMが予測に至る過程を示すことができ、これはインスタンスレベルでの良い解釈であり、同時に性能も向上させます。
4.6 実世界の「タスク」
このセクションの最後の部分では、実世界の「タスク」でのLLMおよびファインチューニングされたモデルの使用について議論します。私たちは「タスク」という用語を緩やかに使用しています。なぜなら、実世界のシナリオは、学術界で見られるような整然とした定義をしばしば欠いているからです。
多くのモデルへのリクエストは、NLPタスクとして扱うことができません。モデルは、実世界で三つの観点からの課題に直面します:
ノイズが多く/非構造化された入力
実世界の入力は、モデルとのやり取り方法をほとんど知らない、またはテキストを流暢に使用できない非専門家から来ます。その結果、実世界の入力データは、事前トレーニングやファインチューニングに使用される整然としたデータとは異なり、誤字、口語、混在した言語を含むことがあります。
学術界によって形式化されていないタスク
実世界のシナリオでは、タスクはしばしば学術設定よりもはるかに多様で、学術界によって明確に定義されていません。ユーザーは、予め定義されたカテゴリーにきれいに収まらないクエリやリクエストを頻繁に提示し、時には単一のクエリ内に複数のタスクが含まれることがあります。
ユーザーの指示に従う
ユーザーのリクエストには、複数の暗黙の意図(例:出力フォーマットへの具体的な要件)が含まれていることがあり、また、フォローアップの質問なしには、彼らが望む予測が不明確な場合があります。モデルは、ユーザーの意図を理解し、それらの意図に合った出力を提供する必要があります。
本質的に、これらの実世界の課題は、ユーザーのリクエストが特定のタスク用に設計されたNLPデータセットの分布から大きく逸脱していることに起因します。公開されているNLPデータセットは、モデルがどのように使用されているかを反映していません。
注記7
LLMは、ファインチューニングされたモデルと比較して、実世界のシナリオを扱うのに適しています。しかし、実世界でのモデルの効果を評価することはまだ未解決の問題です。
このような実世界のシナリオを処理するには、曖昧さに対処し、文脈を理解し、ノイズの多い入力を扱うことが必要です。ファインチューニングされたモデルと比較して、LLMはさまざまな執筆スタイル、言語、ドメインを包括する多様なデータセットでトレーニングされているため、これに対処するのに適しています。さらに、LLMはオープンドメインの応答を生成する強い能力を示し、これらのシナリオに適しています。一方、ファインチューニングされたモデルはしばしば特定の明確に定義されたタスクに特化しており、新しいまたは予期せぬユーザーリクエストに適応するのに苦労することがあります。
追加システムは、非構造化されたコンテキストを処理し、可能な意図を決定し、それに応じてモデルのレスポンスを洗練するために、ファインチューニングされたモデルのアシスタントとしてしばしば必要とされます。さらに、Instruction Tuningやヒューマンアラインメントチューニングなどのメカニズムは、LLMのユーザー指示をよりよく理解し、従う能力をさらに向上させます。これらの方法は、モデルが有益で無害で正直なレスポンスを生成する能力を向上させる一方で、一貫性と整合性を維持します。両方の方法はLLMが未知のタスクや指示に一般化するのを助けることができますが、ヒューマンアラインメントでチューニングされたモデルが、公共のNLPタスク(例:FLANやT0)からの指示でチューニングされたモデルよりも人間のラベラーに好まれることが認識されています。その理由は、ファインチューニングされたモデルの劣位の理由に似ているかもしれません:公共のNLPタスク/データセットは簡単で自動的な評価のために設計されており、実世界の使用の一部しかカバーできません。 実世界のシナリオにおける主な問題の一つは、モデルが良いかどうかを評価する方法です。形式化されたタスクやメトリクスがないため、モデルの有効性の評価は人間のラベラーからのフィードバックにのみ依存することができます。人間の評価の複雑さとコストを考慮すると、ファインチューニングされたモデルとLLMの間で大規模で体系的な比較はまだありません。それにもかかわらず、ChatGPTなどのLLMの巨大な成功と人気は、ある程度、LLMの優位性を確認しています。
5 その他の考慮事項
LLMは様々な下流タスクに適していますが、効率性や信頼性などの他の要因も考慮する必要があります。効率性の議論には、トレーニングコスト、推論遅延、およびLLMのパラメータ効率の良いチューニング戦略が含まれます。同時に、信頼性の調査には、堅牢性と校正、公平性とバイアス、偽の相関の可能性、およびLLMの安全上の課題が含まれます。
注記8
(1) コストに敏感であるか、厳格なレイテンシ要件を持つ場合は、LLMよりも軽量でローカルのファインチューニングされたモデルを検討すべきです。パラメータ効率の良いチューニングは、モデルのデプロイメントと配信における実行可能なオプションである可能性があります。
(2) LLMのゼロショットアプローチは、タスク固有のデータセットからのショートカットの学習を禁止していますが、これはファインチューニングされたモデルで一般的です。それにもかかわらず、LLMはショートカット学習の問題をある程度示しています。
(3) LLMに関連する安全上の懸念は最大限に重要視されるべきです。なぜなら、LLMからの潜在的に有害または偏見のある出力や幻覚は、重大な結果をもたらす可能性があるからです。人間のフィードバックなどの方法は、これらの問題を緩和することに有望を示しています。
5.1 効率性
実世界のデプロイメントでは、モデルのパフォーマンスだけでなく、パフォーマンス、コスト、レイテンシもすべて重要な考慮事項です。いくつかのパラメータ効率の良い方法が開発されていますが、実践者は効率性と有効性のバランスを取る必要があります。
コスト
近年、LLMはますます大きくなり、GPT-1、GPT-2、GPT-3はそれぞれ1億1700万、15億、1750億のパラメータを特徴としています。LLMをトレーニングするコストは、そのサイズに大きく影響されます。例えば、11BパラメータのT5変種をトレーニングするコストは単一実行で100万ドル以上と見積もられており、GPT-3 175Bの単一トレーニング実行には460万ドルが必要です。大規模モデルのトレーニングにかかるエネルギー消費も同様に印象的です。6Bパラメータのトランスフォーマーモデルを完成させるためにトレーニングするための総エネルギー消費量は、約103.5MWhと推定されています。Googleは、PaLMのトレーニングに約2か月で約3.4GWhのエネルギーを消費したと報告しています。さらに、モデルのサイズとともにデータセットのサイズも急速に拡大し、GPT-3 175Bは4990億トークンでトレーニングされています。コンピューティングコストを反映するもう一つの重要な指標はFlopsであり、GPT-3 175Bは3.14 × 10^23 Flopsが必要であり、T5 11Bモデルは3.30 × 10^22 Flopsが必要で、これは10倍少ないです。これらのコストに加えて、ハードウェア要件もかなりのものです。OpenAIは、大規模モデルのトレーニングをサポートするために、Microsoft AzureクラウドでホストされているスーパーコンピューターでMicrosoftと協力しており、285,000のCPUコアと10,000のハイエンドGPUで構成さOpenAI APIを使用するユーザーにとっては、モデルと使用量に基づいて価格が異なり、例えばGPT-3.5-turboではチャットサービスに1kトークンあたり$0.002が課金されます。ただし、カスタムモデルを必要とするユーザーの場合、トレーニングコストは1kトークンあたり$0.03、使用コストは1kトークンあたり$0.12です。したがって、小規模スタートアップや個人ユーザーなど、そのような大きなコストを負担できないユーザーにとっては、小規模でファインチューニングされたモデルがより良く、合理的な選択です。
レイテンシ
LLMを実世界のアプリケーションで使用する際には、レイテンシが重要な要素です。推論時間はレイテンシを測定するために一般的に使用される指標であり、モデルのサイズ、アーキテクチャ、トークンサイズに大きく依存します。例えば、GPT-J 6Bモデルの場合、最大トークンサイズを2、8、32に設定した場合の推論時間はそれぞれ0.077秒、0.203秒、0.707秒です。さらに、最大トークンサイズを32に固定した場合、InstructGPTモデル(davinci v2)の推論時間は1.969秒です。LLMはしばしば単一ユーザーのマシンで実行するには大きすぎるため、企業はAPIを通じてLLMサービスを提供します。APIのレイテンシはユーザーの場所によって異なり、OpenAI APIサービスの単一リクエストの平均レイテンシは数百ミリ秒から数秒の範囲です。高レイテンシが許容できないシナリオでは、大規模LLMは適切ではないかもしれません。たとえば、多くの情報検索アプリケーションではスケーラビリティが重要です。ウェブ上で情報検索システムを展開するためには、検索エンジンはシステムが有用であるために非常に効率的な推論が必要です。InstructGPT davinci v2(175B*)モデルの理想化されたデノイズされた推論時間は、リクエストごとに0.21秒(すなわち、スコアリングするためのクエリ-パッセージペア)であり、これはウェブ検索エンジンには遅すぎます。
パラメータ効率の良いチューニング
実際には、特定のデータセットでモデルをチューニングすることがあります。パラメータ効率の良いチューニング(PET)は、事前訓練されたLLMのほとんどのパラメータを凍結しながら、モデルパラメータの小さな部分(または追加のパラメータ)をチューニングする効率的な手法です。PETの主な目的は、元のモデルの性能を維持しながら計算とストレージのコストを大幅に削減することです。PETの一般的な技術には、LoRA、Prefix Tuning、P-Tuningがあります。例として、LoRA方法は、事前訓練されたモデルの重みを維持し、Transformerアーキテクチャの各層に低ランク行列を組み込みます。このアプローチは、後続のタスクのためにトレーニングが必要なパラメータの数を大幅に削減し、全体的な効率を向上させます。Alpaca-LoRA8は、LLaMA-AlpacaにLow-Rank Adaptation(LoRA)を統合し、単一のRTX 4090で数時間以内にLLaMAを実行することを提案しています。これらのPET方法は、モデルを特定のタスクにファインチューニングするため、または人間の整合性のような特別な要件を満たすためにLLMをチューニングするために役立つ可能性があります。
5.2 信頼性
LLMがヘルスケア、金融、法律などの敏感な分野に関与するようになったため、信頼できる出力を生成し得ることを確保することが不可欠です。
堅牢性と校正
LLMの精度と堅牢性は非常に強い相関関係を示しています。シナリオで高い精度を持つモデルは、良好な堅牢性も持っています。ただし、特定のアプリケーション固有のタスクデータで調整された後、ゼロショットの堅牢性は悪化します。これは過学習によるものであり、モデルの極端な複雑さとダウンストリームタスクからの限られたトレーニングサンプルにより、一般化能力が低下する可能性があります。同様に、モデルをファインチューニングすると、過パラメータ化のために大きな誤校正が生じることが観察されています。したがって、堅牢性と校正が重要な検討事項である場合、ファインチューニングされたモデルは最適な選択ではないかもしれません。ただし、モデルの堅牢性を高めるための潜在的な解決策として、人間の整合性が見出されています。InstructGPT davinci v2(175B*)は、堅牢性の点で他のモデルを上回っていることが示されています。一方、モデルの最適な校正は、シナリオと適応手順に依存します。 公平性とバイアス
LLMは異なる扱いや影響を示し、社会的バイアスを維持し、差別につながる可能性があることが示されています。全てのユーザーに公平性と平等を確保するためには、NLPモデルの開発と展開においてこれらの問題に対処することが不可欠です。人口統計グループ間のパフォーマンスの格差は、公平性の問題の指標として機能する可能性があります。LLMは公平性の問題に特に影響を受けやすく、方言、宗教、性別、人種などの人口統計カテゴリーを横断して顕著なパフォーマンスの格差が観察されています。しかし、研究によると、モデルを人間の指示と整合させることで、そのサイズに関係なくLLMのパフォーマンスが向上することが示されており、InstructGPTモデル(davinci v2)は他のLLMよりも小さなパフォーマンスの格差を示しています。
不正確なバイアス
事前トレーニングおよびファインチューニングのパラダイムの下で、自然言語理解タスクにおけるショートカット学習の問題が観察されています。ここでは、モデルはファインチューニングデータの入力とラベル間の偽の相関に大きく依存して予測します。たとえば、読解タスクでは、ファインチューニングされたモデルは質問と元のパッセージ間の語彙の一致に焦点を当て、読解タスク自体を無視する傾向があります。これに対し、大規模言語モデルはファインチューニングデータセットで直接トレーニングされていないため、ファインチューニングデータセットに存在するショートカット特徴を学ぶ可能性が低く、モデルの一般化能力を向上させます。しかし、LLMは無敵ではなく、コンテキスト内学習中にいくつかのショートカット学習を示すことがあります。たとえば、最近の予備研究は、大規模言語モデルにおけるプロンプトベースの方法の堅牢性を調査し始めています。そのような研究の1つでは、GPT-3のテキスト分類および情報抽出タスクにおける数ショット学習のパフォーマンスを評価し、調査されたLLMが多数ラベルバイアスおよび位置バイアスに影響を受けやすいことを明らかにしています。これらのLLMはまた、事前トレーニングコーパスで一般的な回答を優先する共通トークンバイアスを示しています。最近の研究では、適切なプロンプトを選択することにより、この位置バイアスを軽減できることが示されています。要約すると、LLMはファインチューニングされたモデルに普及しているショートカット学習の問題を大幅に減らしますが、それでもいくつかのショートカット学習の問題を示しており、ダウンストリームアプリケーションでの展開時には注意が必要です。
5.3 安全上の課題
LLMは、推論、知識保持、コーディングなどの多くの分野で非常に強力な能力を示しています。それらがより強力で人間らしくなるにつれて、人々の意見や行動に大きな影響を与える可能性が高まります。その結果、社会に対する新しい安全上の課題が考慮され、最近の研究で多くの注目を集めています。
幻覚
LLMが「幻覚」を起こす、つまり無意味または不正確なコンテンツを生成する可能性は、さまざまなアプリケーションにおける情報の品質と信頼性に重大な悪影響を及ぼす可能性があります。LLMがますます説得力があり、信じられるようになるにつれて、ユーザーはそれらに過度に依存し、ある程度知っている分野で正確な情報を提供すると信じるかもしれません。これは、モデルが完全に偽または誤解を招くコンテンツを生成する場合、特に危険です。その情報に基づいて不正確な決定や行動を取ることにつながります。そのような結果は、情報の正確性と信頼性が重要な多くの分野、例えばヘルスケア、金融、公共政策などで深刻な結果をもたらす可能性があります。これらの問題を軽減するために、人間のフィードバックからの強化学習(RLHF)が広く使用されています。また、LLM自体がループに統合されています。 有害なコンテンツ
LLMによって生成されるテキストの高い一貫性、品質、妥当性により、憎悪表現、差別、暴力を扇動、虚偽の物語、さらには社会工学的攻撃などの有害なコンテンツから生じる害は重大です。これらのコンテンツを検出し修正するための安全対策の実装が緩和策となり得ます。これらのLLMは、必要な不法情報を提供することによって二重使用の可能性もあり、兵器の拡散やさらにはテロ攻撃計画などのリスクをもたらします。これらのLLMを責任を持って使用し、害を防ぐための安全対策があることを確実にすることが重要です。また、既存の作品では、人間からのフィードバックが有害な出力を取り除く上で重要な役割を果たしています。
プライバシー
LLMは深刻なセキュリティ問題に直面する可能性があります。その一例がユーザープライバシーの問題です。報告によると、Samsungの従業員がChatGPTを使用して作業を処理していた際に、誤ってトップシークレットのデータを漏洩させてしまったことがあります。これには、新しいプログラムのソースコード、ハードウェアに関連する内部会議の議事録などが含まれていました。イタリアのデータ保護機関は、ChatGPTの開発者であるOpenAIが不法に個人ユーザーデータを収集したとして、プライバシー上の懸念からChatGPTの使用を禁止した最初の政府となりました。
6 結論と今後の課題
最近の大規模言語モデルの進歩は、自然言語処理の分野を革命的に変えています。LLMを効果的に使用するには、さまざまなNLPタスクにおけるそれらの能力と限界を理解することが必要です。この作業では、ダウンストリームのNLPタスクでLLMを使用するための実践的なガイドを提供します。まず、GPTスタイルやBERTスタイルのアーキテクチャなどの著名なモデルと、それらのパフォーマンスに影響を与える要因について議論します。その後、知識集約的なタスク、NLU、NLGタスクなど、ダウンストリームのタスクでLLMを使用することを探求し、成功例と限界について具体的な例を提供します。この実践的なガイドは、NLPタスク全体でLLMを活用するための洞察とベストプラクティスを提供します。これが、研究者や実践者がその可能性を活用し、言語技術の革新を推進するのに役立つことを願っています。
以下では、LLMの今後の課題を挙げています:
実世界の「データセット」で提案されたモデルの評価
既存のディープラーニングモデルは主に、ImageNetのような標準的な学術データセットで評価されていますが、これらはディープラーニング開発のマイルストーンとなっています。しかし、標準的な学術データセットの限界は、実世界のパフォーマンスを正確に反映できない可能性があります。モデルが進化するにつれて、実世界のニーズを反映したより多様で複雑で現実的なデータでそれらを評価することが重要になります。学術データセットに加えて、実世界の「データセット」でモデルを評価することは、それらの能力に対するより厳格なテストを提供し、実世界のアプリケーションでの有効性についてより良い理解を提供します。これにより、モデルが実世界の課題に対処し、実用的なソリューションを提供することができるかどうかを確認します。
モデルの整合性
ますます強力で自律的なモデルが人間の価値観や優先事項と整合することを保証することが不可欠です。これらのモデルが意図した通りに振る舞い、望ましくない結果に最適化しないことを保証するための方法を開発する必要があります。モデル開発プロセスの開始時から整合性技術を統合することが重要です。また、モデルの透明性と解釈可能性も、整合性を評価し保証するための重要な要素です。さらに、将来を見据えると、さらに困難な課題が見えてきます:超人的システムの整合性。このタスクは現在の私たちの要求を超えていますが、そのような高度なシステムの整合性を考慮し、準備することは重要です。なぜなら、それらは独自の複雑さや倫理的な懸念を提起する可能性があるからです。
安全性の整合性
AIの存在論的リスクについての議論は重要ですが、高度なAIの安全な開発を保証するためには具体的な研究が必要です。これには、解釈可能性、スケーラブルな監督とガバナンス、およびモデル特性の形式的検証のための技術が含まれます。安全性は、単なる追加要素ではなく、モデル構築プロセスの不可欠な部分として考慮されるべきです。
スケーリングに伴うパフォーマンスの予測
モデルのサイズと複雑さが劇的に増加するにつれて、モデルのパフォーマンスがどのように変化するかを予測することは困難です。スケーリングアップ後や新しいアーキテクチャが開発された後にモデルのパフォーマンスをよりよく予測する方法を開発することは、リソースのより効率的な使用と加速された進歩を可能にします。いくつかの可能性には、より小さな「種」モデルをトレーニングし、その成長を外挿すること、スケールの増加やモデルの微調整の効果をシミュレートすること、および異なるスケールでのモデルのイテレーションをベンチマークしてスケーリング法則を構築することが含まれます。これらは、モデルが構築される前でさえ、モデルのパフォーマンスに洞察を提供することができます。